iT邦幫忙

2024 iThome 鐵人賽

DAY 13
0
AI/ ML & Data

AI 影像處理 30天系列 第 13

[AI 影像處理 30天] [Day 13] 用多模態 LLM (gpt-4o) 判斷物件與場景之適配度

  • 分享至 

  • xImage
  •  

當置入物件影像至場景影像時偶爾會有不知道該物件是否適合該場景的情況發生,萬一物件種類很多,人工判斷將會是一件很痛苦的事情,此時不妨利用多模態 LLM 來助我們一臂之力!

本篇所使用的多模態 LLM 為 gpt-4o,其使用方式可參考筆者的 repo.


範例用圖

場景及其代號

scenes

物件及其代號

items


結果

用程式碼批次讓多模態 LLM (gpt-4o) 對各個物件是否適合各個場景打出分數 (0~100分) 的結果如下:

scene item expected score gpt-4o score
cattles.jpg cola.jpg ≤50 20✔️
cattles.jpg steak.jpg >50 85✔️
cattles.jpg powder.jpg >50 95✔️
kids.jpg cola.jpg >50 80✔️
kids.jpg steak.jpg ≤50 25✔️
kids.jpg powder.jpg >50 80✔️
team.jpg cola.jpg >50 90✔️
team.jpg steak.jpg >50 85✔️
team.jpg powder.jpg ≤50 40✔️

其中 expected score 那個欄位是筆者認為該是多少分;gpt-4o score 是多模態 LLM (gpt-4o) 給出的分數,可說是完全符合預期呢!


圖片來源:


撰文者: PikasXYZ


上一篇
[AI 影像處理 30天] [Day 12] ASR 語音任務:WhisperX
下一篇
[AI 影像處理 30天] [Day 14] P 圖大師:在廚房掛上一幅《蒙娜麗莎》有多困難?
系列文
AI 影像處理 30天30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言